## 'data.frame': 4898 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 47 30 30 45 14 28 ...
## $ total.sulfur.dioxide: num 170 132 97 186 186 97 136 170 132 129 ...
## $ density : num 1.001 0.994 0.995 0.996 0.996 ...
## $ pH : num 3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1 Min. : 3.800 Min. :0.0800 Min. :0.0000
## 1st Qu.:1225 1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700
## Median :2450 Median : 6.800 Median :0.2600 Median :0.3200
## Mean :2450 Mean : 6.855 Mean :0.2782 Mean :0.3342
## 3rd Qu.:3674 3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900
## Max. :4898 Max. :14.200 Max. :1.1000 Max. :1.6600
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.600 Min. :0.00900 Min. : 2.00
## 1st Qu.: 1.700 1st Qu.:0.03600 1st Qu.: 23.00
## Median : 5.200 Median :0.04300 Median : 34.00
## Mean : 6.391 Mean :0.04577 Mean : 35.31
## 3rd Qu.: 9.900 3rd Qu.:0.05000 3rd Qu.: 46.00
## Max. :65.800 Max. :0.34600 Max. :289.00
## total.sulfur.dioxide density pH sulphates
## Min. : 9.0 Min. :0.9871 Min. :2.720 Min. :0.2200
## 1st Qu.:108.0 1st Qu.:0.9917 1st Qu.:3.090 1st Qu.:0.4100
## Median :134.0 Median :0.9937 Median :3.180 Median :0.4700
## Mean :138.4 Mean :0.9940 Mean :3.188 Mean :0.4898
## 3rd Qu.:167.0 3rd Qu.:0.9961 3rd Qu.:3.280 3rd Qu.:0.5500
## Max. :440.0 Max. :1.0390 Max. :3.820 Max. :1.0800
## alcohol quality
## Min. : 8.00 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.40 Median :6.000
## Mean :10.51 Mean :5.878
## 3rd Qu.:11.40 3rd Qu.:6.000
## Max. :14.20 Max. :9.000
O conjunto de dados de vinhos brancos consiste de 13 variáveis com quase 5.000 observações.
A variável X trata-se de um simples número sequencial para cada observação que não agrega valor para a análise e por isso será removida das análises seguintes.
##
## 3 4 5 6 7 8 9
## 20 163 1457 2198 880 175 5
A variável qualidade parece seguir uma distribuição normal com moda no valor 6 (mais de 2000 casos). Vamos agora verificar a distribuição das outras variáveis.
Vamos investigar a distribuição das características:
Com exceção de alcohol, a distribuição das outras variáveis apresentam outliers à direita.
Vamos plotar boxplots com os valores normalizados das variáveis para verificar a existência de outliers.
Conforme nossas observações no histograma, verificamos muitos outliers nas variáveis.
No gráfico de barras da quality, vimos alguns poucos vinhos com qualidade baixa (3 e 4) e outros vinhos com alta qualidade (8 e 9), seriam esses os responsáveis pelos outliers?
Primeiro vamos classificar os vinhos pela qualidade criando uma nova variável class no dataset.
##
## baixa qualidade normal alta qualidade
## 183 4535 180
Vamos verificar as características desses vinhos. Vinhos com baixa qualidade:
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 4.200 Min. :0.110 Min. :0.0000 Min. : 0.700
## 1st Qu.: 6.400 1st Qu.:0.260 1st Qu.:0.2050 1st Qu.: 1.350
## Median : 6.900 Median :0.320 Median :0.3000 Median : 2.700
## Mean : 7.181 Mean :0.376 Mean :0.3077 Mean : 4.821
## 3rd Qu.: 7.650 3rd Qu.:0.460 3rd Qu.:0.4000 3rd Qu.: 7.500
## Max. :11.800 Max. :1.100 Max. :0.8800 Max. :17.550
## chlorides free.sulfur.dioxide total.sulfur.dioxide
## Min. :0.01300 Min. : 3.00 Min. : 10.0
## 1st Qu.:0.03750 1st Qu.: 9.00 1st Qu.: 85.5
## Median :0.04600 Median : 18.00 Median :119.0
## Mean :0.05056 Mean : 26.63 Mean :130.2
## 3rd Qu.:0.05400 3rd Qu.: 33.50 3rd Qu.:177.0
## Max. :0.29000 Max. :289.00 Max. :440.0
## density pH sulphates alcohol
## Min. :0.9892 Min. :2.830 Min. :0.250 Min. : 8.00
## 1st Qu.:0.9926 1st Qu.:3.060 1st Qu.:0.380 1st Qu.: 9.40
## Median :0.9941 Median :3.160 Median :0.470 Median :10.10
## Mean :0.9943 Mean :3.183 Mean :0.476 Mean :10.17
## 3rd Qu.:0.9960 3rd Qu.:3.285 3rd Qu.:0.540 3rd Qu.:10.80
## Max. :1.0004 Max. :3.720 Max. :0.870 Max. :13.50
## class
## baixa qualidade:183
## normal : 0
## alta qualidade : 0
##
##
##
Vinhos com alta qualidade:
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. :3.900 Min. :0.120 Min. :0.0400 Min. : 0.800
## 1st Qu.:6.200 1st Qu.:0.200 1st Qu.:0.2800 1st Qu.: 2.075
## Median :6.800 Median :0.260 Median :0.3200 Median : 4.300
## Mean :6.678 Mean :0.278 Mean :0.3282 Mean : 5.628
## 3rd Qu.:7.300 3rd Qu.:0.330 3rd Qu.:0.3600 3rd Qu.: 8.150
## Max. :9.100 Max. :0.660 Max. :0.7400 Max. :14.800
## chlorides free.sulfur.dioxide total.sulfur.dioxide
## Min. :0.01400 Min. : 6.00 Min. : 59.0
## 1st Qu.:0.03000 1st Qu.: 28.00 1st Qu.:102.8
## Median :0.03550 Median : 34.50 Median :122.0
## Mean :0.03801 Mean : 36.63 Mean :125.9
## 3rd Qu.:0.04400 3rd Qu.: 44.25 3rd Qu.:148.5
## Max. :0.12100 Max. :105.00 Max. :212.5
## density pH sulphates alcohol
## Min. :0.9871 Min. :2.940 Min. :0.2500 Min. : 8.50
## 1st Qu.:0.9903 1st Qu.:3.127 1st Qu.:0.3800 1st Qu.:11.00
## Median :0.9916 Median :3.230 Median :0.4600 Median :12.00
## Mean :0.9922 Mean :3.221 Mean :0.4857 Mean :11.65
## 3rd Qu.:0.9935 3rd Qu.:3.330 3rd Qu.:0.5825 3rd Qu.:12.60
## Max. :1.0006 Max. :3.590 Max. :0.9500 Max. :14.00
## class
## baixa qualidade: 0
## normal : 0
## alta qualidade :180
##
##
##
Aparentement esses vinhos não são os responsáveis pelos desvios. Na análise bivariada poderemos investigar mais a fundo essa questão.
Para melhorar a visualização, vou plotar algumas variáveis removendo os outliers correspondendo aos 2% maiores valores.
A distribuição do residual.sugar é inclinada positivamente, o alcohol é bem irregular, todas as outras parecem ser normais. A distribuição chlorides ainda tem uma longa cauda à direita mesmo com a remoção dos extremos. Vamos aplicar uma transformação para melhorar a visualização.
Aplicando a transoformação log10, melhora a visualização da distribuição das variáveis.
Existem 4898 vinhos com 12 variáveis relevantes (“fixed.acidity”, “volatile.acidity”, “citric.acid”, “residual.sugar”, “chlorides”, “free.sulfur.dioxide”, “total.sulfur.dioxide”, “density”, “pH”, “sulphates”, “alcohol”, “quality”).
A variável “quality” indica a qualidade do vinho numa escala de 0 a 10. Quanto maior a variável melhor a qualidade do vinho. A maior parte dos vinhos estão entre a qualidade 4 a 8, com alguns poucos exemplares nos extremos 3 e 9.
As outras variáveis apresentam muitos outliers mas a maioria segue uma distribuição normal, com exceção do alcohol e do residual.sugar.
A principal característica é a qualidade dos vinhos. Eu gostaria de investigar quais características são as melhores para fazer a predição da qualidade do vinho branco. Acredito que a combinação de várias características afetem a qualidade do vinho.
Considero que a qualidade seja resultante da combinação de diversas características. Após realizar algumas pesquisas acredito que o teor alcoolico e a acidez são as características que podem mais contribuir para a qualidade dos vinhos.
Referência: http://revistaadega.uol.com.br/artigo/o-alcool-e-a-acidez_6055.html
Foi criada a variável classificação baseada na qualidade do vinho.
| Qualidade | Classificação |
|---|---|
| 3-4 | Baixa qualidade |
| 6-7 | Normal |
| 8-9 | Alta qualidade |
A variável alcohol possui uma distribuição bastante irregular. Após aplicar a transofrmação log10, a variável residual.sugar apresentou-se bimodal e a chlorides normal.
A maior correlação da qualidade foi da variável alcohol com índice 0,44, considerada uma correlação moderada. Ao contrário do esperado, a acidez teve uma correlação fraca com a qualidade (0,11 e 0,19). A segunda maior correlação foi com densidade (-0,31). Interesante que a densidade também uma forte correlação com alcohol.
Vamos verificar os gráficos de caixas com as variáveis que tiveram maior correlação, alcohol e density.
## wine_data$class: baixa qualidade
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.40 10.10 10.17 10.80 13.50
## --------------------------------------------------------
## wine_data$class: normal
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.40 10.30 10.48 11.30 14.20
## --------------------------------------------------------
## wine_data$class: alta qualidade
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.50 11.00 12.00 11.65 12.60 14.00
## wine_data$class: baixa qualidade
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9892 0.9926 0.9941 0.9943 0.9960 1.0000
## --------------------------------------------------------
## wine_data$class: normal
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9918 0.9938 0.9941 0.9962 1.0390
## --------------------------------------------------------
## wine_data$class: alta qualidade
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9903 0.9916 0.9922 0.9935 1.0010
Com a variável alcohol é possível perceber a correlação entre as classes de qualidade (maior mediana para uma qualidade maior). Para a densidade a tendência é bem mais sútil mas é possível verificar que os vinhos de alta qualidade tem uma densidade menor.
Vamos verificar a correlação entre alcohol e densidade utilizando um gráfico de dispersão.
No gráfico podemos observar a forte correlação entre as variáveis. Quanto menor o nível alcoolico maior a densidade.
##
## Call:
## lm(formula = quality ~ alcohol, data = wine_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.5317 -0.5286 0.0012 0.4996 3.1579
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.582009 0.098008 26.34 <2e-16 ***
## alcohol 0.313469 0.009258 33.86 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7973 on 4896 degrees of freedom
## Multiple R-squared: 0.1897, Adjusted R-squared: 0.1896
## F-statistic: 1146 on 1 and 4896 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = quality ~ density, data = subset(wine_data, density <=
## quantile(wine_data$density, 0.99)))
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.1655 -0.5940 -0.0071 0.5463 3.4260
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 105.531 4.226 24.97 <2e-16 ***
## density -100.257 4.252 -23.58 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8399 on 4847 degrees of freedom
## Multiple R-squared: 0.1029, Adjusted R-squared: 0.1027
## F-statistic: 555.9 on 1 and 4847 DF, p-value: < 2.2e-16
Verificando o coeficiente de determinação vemos que mesmo as variáveis com maior correlação não explicam muito a qualidade. O alcohol explica 19% enquanto que a densidade 10%. Isso reforça a ideia de que a qualidade é explicada por vários fatores em conjunto.
Um ponto que achei intrigante foi a correlação entre a acidez fixa e volátil ter sido tão baixa (-0,02). Esperava uma correlação bem maior. Vamos plotar o gráfico de dispersão das variáveis para verificar melhor.
Pelo gráfico as variáveis parecem estar bem correlacionadas mas não seguem uma relação linear.
Mesmo o free.sulfur.dioxide e total.sulfur.dioxide apresentam uma correlação menor que o esperado (0,62). Esperava uma correlação muito forte entre as duas características. Vamos plotar o gráfico de dispersão entre as variáveis.
No gráfico é possível verificar uma relação linear mas com bastante ruído.
Por último gostaria de verificar se os valores outliers das variáveis são relacionados com a qualidades extremas dos vinhos.
Vamos visualizar o histograma de algumas características com cores diferentes por qualidade. Como as quantidades das qualidades extremas são pequenas, foi dado zoom para mostrar quantidades até 100 observações no segundo gráfico.
Pelos gráficos, parece que não são os vinhos com qualidade nos extremos os responsáveis pelo outliers nas observações.
A maior correlação da qualidade foi da variável alcohol com índice 0,44, considerada uma correlação moderada. Ao contrário do esperado, a acidez teve uma correlação fraca com a qualidade (0,11 e 0,19). A segunda maior correlação foi com densidade (-0,31). Interesante que a densidade também uma forte correlação com alcohol.
Vinhos com maior considerados de maior qualidade tem um maior teor alcoolico. Já a densidade é inversamente proporcional a qualidade, quanto maior a densidade menor a qualidade.
As duas variáveis com maior correlação com a qualidade, alcohol e density, explicam apenas 19% e 10% da qualidade. Isso reforça a ideia de que a qualidade é explicada por vários fatores em conjunto.
Os desvios encontrados nas variáveis que representam as características dos vinhos não são originados somente dos vinhos com qualidades extremas (alta ou baixa).
Densidade e alcool apresentam a maior correlação linear entre as variáveis com índice -0.78.
Acidez física e volátil possuem uma baixa correlação linear mas pelo gráfico é possível perceber que há uma correlação não linear.
Free.sulfur.dioxide e total.sulfur.dioxide apresentam uma correlação linear de 0,62. Pelo gráfico podemos observar que apesar de observar uma tendência linear, há muito ruído na relação.
A variável com maior correlação linear com a qualidade foi alcohol com índice 0,44. É um tanto surpreendente pois não esperava que o teor alcoolico tivesse tanta influência na qualidade. Como é uma correlação positiva isso indica que quanto maior o teor alcool melhor a qualidade. Mesmo assim é uma correlação apenas moderada. Isso indica que a qualidade é melhor explicada por uma combinação de vários fatores.
Para uma melhor visualização, vamos investigar os diagramas de densidade das variáveis alcool, densidade e cloretos.
Nos diagramas de alcool e densidade é possível observar claramente a distinção da densidades dos vinhos de alta qualidade para os vinhos normal e baixa qualidade. Como o esperado, devido a baixa correlação, no diagrama dos cloretos a distinção já não é tão clara.
Agora vamos ver se é possível observara em um gráfico de dispersão de alcool por densidade verificar uma maior concentração dos vinhos de alta qualidade em alguma area do gráfico. Vamos fazer o mesmo para acidez volatil e fixa e depois as variáveis que representam o dióxido de enxofre.
As retas em azul no gráfico representam a média da variável.
Pelos gráficos é possível observar que no gráfico de alcool por densidade os vinhos de alta qualidade tem uma maior concentração no quadrante com maior teor alcoolico e menor densidade. No gráfico das variáveis de acidez fixa e volátil os vinhos de alta e baixa qualidade parecem ter uma baixa incidência no centro. Já no gráfico de dióxido de enxofre não foi possível observar nenhuma distinção entre as classes de qualidade.
Vamos agora construir um modelo linear com as características dos vinhos para avaliar a a predição da qualidade utilizando essas características.
##
## Calls:
## m1: lm(formula = quality ~ alcohol, data = dataset)
## m2: lm(formula = quality ~ alcohol + density, data = dataset)
## m3: lm(formula = quality ~ alcohol + density + chlorides, data = dataset)
## m4: lm(formula = quality ~ alcohol + density + chlorides + volatile.acidity,
## data = dataset)
## m5: lm(formula = quality ~ alcohol + density + chlorides + volatile.acidity +
## total.sulfur.dioxide, data = dataset)
## m6: lm(formula = quality ~ ., data = dataset)
##
## ================================================================================================
## m1 m2 m3 m4 m5 m6
## ------------------------------------------------------------------------------------------------
## (Intercept) 2.582*** -22.492*** -21.150*** -35.573*** -30.759*** 150.193***
## (0.098) (6.165) (6.162) (6.010) (6.295) (18.804)
## alcohol 0.313*** 0.360*** 0.343*** 0.389*** 0.391*** 0.193***
## (0.009) (0.015) (0.015) (0.015) (0.015) (0.024)
## density 24.728*** 23.671*** 38.217*** 33.251*** -150.284***
## (6.079) (6.074) (5.926) (6.234) (19.075)
## chlorides -2.382*** -1.300* -1.370* -0.247
## (0.558) (0.542) (0.543) (0.547)
## volatile.acidity -2.043*** -2.070*** -1.863***
## (0.111) (0.111) (0.114)
## total.sulfur.dioxide 0.001* -0.000
## (0.000) (0.000)
## fixed.acidity 0.066**
## (0.021)
## citric.acid 0.022
## (0.096)
## residual.sugar 0.081***
## (0.008)
## free.sulfur.dioxide 0.004***
## (0.001)
## pH 0.686***
## (0.105)
## sulphates 0.631***
## (0.100)
## ------------------------------------------------------------------------------------------------
## R-squared 0.190 0.192 0.195 0.248 0.249 0.282
## adj. R-squared 0.190 0.192 0.195 0.247 0.248 0.280
## sigma 0.797 0.796 0.795 0.768 0.768 0.751
## F 1146.395 583.290 396.315 402.956 324.034 174.344
## p 0.000 0.000 0.000 0.000 0.000 0.000
## Log-likelihood -5839.391 -5831.127 -5822.011 -5657.292 -5654.027 -5543.740
## Deviance 3112.257 3101.773 3090.247 2889.234 2885.385 2758.329
## AIC 11684.782 11670.255 11654.021 11326.584 11322.054 11113.480
## BIC 11704.272 11696.241 11686.504 11365.563 11367.530 11197.936
## N 4898 4898 4898 4898 4898 4898
## ================================================================================================
Verificando a variável R^2, mesmo utilizando todas as características disponíveis apenas 28% da qualidade é descrita por essas variáveis.
Os vinhos de melhor qualidade encontram-se no quadrante superior esquerdo do gráfico alcohol x density. Isso confirma a observação de que quanto maior o teor alcoolico e menor a densidade, melhor o vinho. Poŕem mesmo assim ainda é possível observar bastante ruído com bastante vinhos de baixa qualidade no mesmo quadrante superior esquerdo e também vinhos de alta qualidade no quadrante oposto (inferior direito).
Em relação ao gráfico volatile.acidity x fixed.acidity é possível observar que os vinhos de alta e também de baixa qualidade tendem a afastarem-se do centro das médias. Ficando o centro populado em sua maioria pelos vinhos normais.
No gráfico total.sulfur.dioxide x free.sulfur.dioxido observei que no quadrante inferior direito há apenas um vinho de baixa qualidade e quantidades similares distribuídas pelo outros quadrantes.
Achei interessante o fato de vinhos com maior teor alcoolico tenderem a ter uma maior qualidade.
Também fiquei surpreso com a correlação não linear entre a volatile.acidity e fixed.acidity, com os vinhos de alta e baixa qualidade tendendo a ficar fora do centro.
Foi criado um modelo linear e analisada a influência das variáveis na descrição da qualidade dos vinhos. O modelo não conseguiu atingir uma boa descrição da qualidade, mesmo incluindo todas as variàveis disponíveis apenas 28% da qualidade é descrita. Isso leva a uma conclusão que é necessário um modelo mais complexo do que um simples modelo linear. Como visto por exemplo entre as variáveis volatile.acidity e fixed.acidity parece exisitir uma correlação não-linear forte. Outros tipos de modelos poderiam ser explorados.
A distribuição de vinhos por qualidade parece ser normal com moda no valor 6 com mais de 2.000 vinhos. Para uma melhor organização os vinhos foram agrupados em 3 classificações: Baixa Qualidade (3 e 4), Normal (5 a 7) e Alta Qualidade (8 e 9). As classes baixa e alta qualidade tem quantidades semelhantes.
As duas variáveis que tiveram mais correlação linear com a qualidade foram o alcool e a densidade. Pelos boxplots é possível observar que quanto maior o teor alcoolico maior a qualidade e que a densidade tem uma correlação inversa e mais sutil, quanto menor a densidade maior a qualidade.
No gráfico de dispersão de densidade e alcool por qualidade é possível observar que a maior parte dos vinhos de alta qualidade encontram-se no quadrante superior esquerdo, ou seja, com teor alcoolico acima e densidade abaixo da média da amostra.
O conjunto de dados de vinhos brancos contém quase 5.000 observações com 13 variáveis. A análise iniciou com o entendimento das variáveis do dataset, seus valores e tipos de dados. Depois foram analisadas a distribuição das variáveis individualmente, iniciando pela variável de interesse da qualidade dos vinhos. Então foram analisada a qualidade dos vinhos com as variáveis mais correlacionadas e criado um modelo linear para predição da qualidade dos vinhos.
A maior correlação linear da qualidade é com o teor alcoolico e a densidade. Fiquei surpreso com o alcool sendo a variável com maior correlação, não esperava que o teor alcoolico tivesse tanta influencia na qualidade, e que quanto maior o teor alcoolico maior a qualidade. Apesar disso, a qualidade parece ser bem complexa e resultante da combinação de muitas variáveis. O alcool, sendo a variável com maior correlação explica somente 19% e todas as variáveis juntas só conseguiram atingir 28%.
Como foi utilizado um modelo linear, esse pode ser um dos motivos da baixa expectativa de predição. Entre algumas variáveis, como por exemplo entre a acidez volátil e fixa foi possível observar uma correlação não-linear entre as variáveis, então outros modelos não-linear poderiam ser utilizados para prever a qualidade com maior precisão.
Algumas limitações da análise são: a origem e data de coleta dos dados que parecem não ser atuais; o intervalo de classificação da qualidade dos vinhos é muito estreito, variando apenas de 3 a 9, geralmente as classificações de bebidas vão de 0 a 100; foram disponibilizadas apenas características numéricas dos vinhos, características categóricas, como por exemplo, cor, aroma e sabor, podem ser muito úteis para classificar a qualidade dos vinhos.
Outros datasets que superem algumas das limitações indicadas acima podem resultar numa melhor predição da qualidade. Um exemplo seria o VinhoVirtual (http://www.vinhovirtual.com.br/), um conjunto de dados com classificações atuais em uma escala de 0 a 100, características numéricas e também categóricas. Uma preocuação com esse dataset seria que, por ser uma base alimentada pelos usuários da comunidade, muitos dados estão ausentes e pode haver também dados discrepantes informados pelos usuários, então um tratamento mais detalhado dos dados é necessário.